Африка има хиляди езици. Може ли AI да бъде обучен на всички тях?
Вижте всички тематики Връзката е копирана! Следвайте
Как да научите някого да чете език, в случай че няма какво да чете? Това е казусът, пред който са изправени разработчиците от целия африкански континент, които се пробват да обучат AI да схваща и да дава отговор на подкани на локалните езици.
За да обучите езиков модел, имате потребност от данни. За език като британския, леснодостъпните публикации, книги и управления в интернет дават на разработчиците подготвени доставки. Но за множеството от езиците на Африка - които се правят оценка на сред 1500 и 3000 - има малко налични писмени запаси. Вукоси Маривате, професор по компютърни науки в Университета на Претория, Южна Африка, употребява броя на наличните публикации в Уикипедия, с цел да илюстрира количеството налични данни. За британски има над 7 милиона публикации. Тигриня, говорен от към 9 милиона души в Етиопия и Еритрея, има 335. За акан, най-разпространеният роден език в Гана, няма нито един.
От тези хиляди езици единствено 42 сега се поддържат на езиков модел. От 23-те писмености и писмености в Африка са налични единствено три — латиница, арабски и Ge’Ez (използвани в Африканския рог). Това недоразвитие „ идва от финансова позиция “, споделя Чинаса Т. Около, създател на Technēculturǎ, проучвателен институт, който работи за напредъка на световното присъединяване в ИИ. „ Въпреки че има повече говорещи суахили, в сравнение с говорещи финландски, Финландия е по-добър пазар за компании като Apple и Гугъл. “
Ако не бъдат създадени повече езикови модели, въздействието на целия континент може да бъде извънредно, предизвестява Около. „ Ще продължим да виждаме хората лишени от благоприятни условия “, сподели тя пред CNN. Тъй като континентът се стреми да развие своя лична AI инфраструктура и благоприятни условия, тези, които не приказват един от тези 42 езика, рискуват да бъдат изоставени.
За да се избегне това, Okolo споделя, че разработчиците на AI на целия континент „ би трябвало да премислят метода, по който подхващаме създаването на модели преди всичко “.
Това е, което Marivate направи. Marivate управлява южноафриканското звено на плана African Next Voices, който е направил записи на 18 езика в Южна Африка, Кения и Нигерия. В продължение на две години трите екипа събраха 9000 часа записи от хора от разнообразни възрасти и локации, създавайки набор от данни, който ще бъде наличен за разработчиците на AI от целия континент, с цел да се употребява за образование на модели.
Изследователите от време на време дават на носителите на езика скриптове за четене, само че най-често им дават подкана и записват техните отговори, които по-късно се транскрибират. За исиндебеле, говорен в Южна Африка и Зимбабве, им беше толкоз мъчно да намерят писмени запаси, че прибягнаха до държавен справочник за пастири на кози, с цел да им оказват помощ да напишат подсказките си.
African Next Voices не е събрал задоволително данни, с цел да образова огромен езиков модел (LLM) като ChatGPT или Gemini, който може да покрие хиляди тематики в елементи. Marivate обаче споделя, че са фокусирали записите си върху съответни тематики, като опазване на здравето и земеделие, които са били счетени за най-важни.
Използването на дребен набор от данни за основаване на генерализиран модел би довело до висок % неточности, само че дребните, фокусирани набори от данни могат да бъдат доста точни в границите на ограничавания обсег на профилиран модел, изясни Nyalleng Moorosi, теоретичен помощник в Distributed AI Research Institute (DAIR), който не е обвързван с плана African Next Voices.
За нея това е въпрос на „ приоритизиране на грешката “. „ Ако някой просто желае да разбере какво се случва в центъра на Найроби, мога да търпя неточности там “, сподели Муроси, само че грешките в моделите, които се занимават с тематики като банкиране или опазване на здравето, могат да имат съществени последици.
„ Трябва да сме сигурни, че хората, които построяват тези модели, схващат следствията, схващат задоволително културите, с цел да схванат тежестта на тези неточности “, сподели Муроси пред CNN.
Думите и знаците, споделя тя, имат голям брой смисли. Кръстът на Свети Георги, да вземем за пример, има асоциации с дясната политика в Обединеното кралство, които не са явни за някой от Гана или Лесото. Този проблем е изключително постоянно срещан при езиците с ниски запаси. „ Има доста контекстуални познания, има малко документи “, споделя тя.
Проучване на DAIR откри, че уебсайтовете на обществените медии не са съумели да разпознаят и отстранен речта на омразата, обвързвана с етническото принуждение в Етиопия, частично тъй като автоматизираните системи и човешките модератори не са били осведомени с употребяваните жаргонни термини.
Moorosi споделя, че без това културно схващане е невероятно да накараме „ AI системите да работят и да вършат преценки, които са съобразени с нашите вярвания и полезности “.
Въпреки че доста африканци приказват голям брой езици, в това число африканските и европейските езици, които към този момент се поддържат от езикови модели, Moorosi има вяра, че задачата би трябвало да бъде AI да бъде наличен на всички езици, " даже за езици, които имат един представител. Всички езици заслужават показване или опазване. "
Липсата на данни обаче не е единственото предизвикателство пред африканските разработчици на ИИ. Повечето африкански езици не са кодифицирани посредством речници или граматически проучвания. В Киняруанда, езикът на Руанда, има три постоянно срещани метода за изписване на името на страната: uRwanda, Urwanda и u Ruanda. Без правила за правопис даже най-елементарната обработка на текст става сложна.
Друг проблем е неналичието на центрове за данни. Африканският съюз предизвести през 2024 година, че единствено 10% от търсенето на центрове за данни на континента е задоволено, което съставлява спънка за очакванията на ИИ в Африка.
Тревогата за Marivate е, че в случай че не се създадат модели за тези по-малки езици, те ще „ изчезнат “. Когато става въпрос за разработчици, създаващи набори от данни за езици, които може даже да нямат системи за писане, „ моделът ще би трябвало да се промени “, прибавя той.
Проектът African Next Voices преди малко приключи събирането и преписването на своите данни. Marivate споделя, че сега не работи върху нови езици, само че той към този момент мисли кой може да бъде идващият.
Вижте всички теми